Telegram Group & Telegram Channel
🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/980
Create:
Last Update:

🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/980

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

The seemingly negative pandemic effects and resource/product shortages are encouraging and allowing organizations to innovate and change.The news of cash-rich organizations getting ready for the post-Covid growth economy is a sign of more than capital spending plans. Cash provides a cushion for risk-taking and a tool for growth.

The S&P 500 slumped 1.8% on Monday and Tuesday, thanks to China Evergrande, the Chinese property company that looks like it is ready to default on its more-than $300 billion in debt. Cries of the next Lehman Brothers—or maybe the next Silverado?—echoed through the canyons of Wall Street as investors prepared for the worst.

Библиотека собеса по Data Science | вопросы с собеседований from hk


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA